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摘 要 : 传统 句子 分 类 模型 存在 特征 提取 过 程 复杂 且 分 类 准确 率 较 低 等 不 足 ， 利 用 当下 流行 的 基于 深度 学 习 模 型 的 
卷 积 神经 网 络 在 特征 提取 上 的 优势 ， 结 合 传统 句子 分 类 方法 提出 一 种 基于 卷 积 神经 网 络 和 贝 叶 斯 分 类 器 的 句子 分 类 
模型 。 该 模型 首先 利用 卷 积 神经 网 络 提取 文本 特征 ， 其 次 利用 主 成 分 分 析 法 对 文本 特征 进行 降 维 ， 最 后 利用 贝 叶 斯 
分 类 器 进行 句子 分 类 。 实 验 结 果 表 明 在 康泰 尔 大 学 公开 的 影评 数据 集 和 斯 坦 福 大 学 情感 分 类 数据 集 上 ， 所 提出 的 方 
法 优 于 只 使 用 深度 学 习 的 模型 或 传统 句子 分 类 模型 。 
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Abstract: The traditional sentence classification model has many disadvantages such as complex feature extraction process 
and low classification accuracy. This paper used the advantages of the popular deep learning model based convolutional 
neural network in feature extraction, combined with the traditional sentence classification method, proposed a sentence 
classification model based on convolutional neural network and Bayesian classifier. The model first used convolutional 
neural network to extract text features, and secondly used principal component analysis method to reduce the dimensionality 
of text features. Finally, Bayesian classifier were used to classify sentences. The experimental results show that on Cornell 
University's public film review dataset and Stanford Sentiment Treebank dataset, the method proposed in this paper is 
superior to the model using only deep learning or the traditional sentence classification model. 
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classifier 
0 ”引言 任务 转换 为 二 次 型 寻 优 问题 ， 并 可 得 到 全 局 最 优 解 ， 有 效 地 
解决 了 在 神经 网 络 中 无 法 避免 的 局 部 极 值 问 题 ， 但 其 在 文本 


句子 分 类 中 是 自然 语言 处 理 Cnatural language processing， 特征 表示 时 ， 主 要 通过 词 频 选 择 文本 特征 ， 完 全 忽略 了 句子 
NLP) 中 的 核心 任务 之 一 ， 近 年 来 受到 NLP 领域 学 者 的 广泛 的 上 下 文 结构 信息 ; 最 大 人 模 型 [I 选择 文本 特征 灵活 且 不 需 
关注 , 成 为 NLP 的 研究 热点 。 句 子 分 类 是 人 们 的 观点 、 情 绪 要 额外 的 独立 假设 或 内 在 约束 ， 但 其 对 语料库 的 依赖 性 较 强 
评价 和 对 实体 如 产品 、 服 务 、 问 题 、 事 件 、 主 题 和 属性 等 态 寻 计 算 量 大 导致 训练 时 间 较 长 。 由 此 可 以 看 出 ， 传 统 的 句 


度 的 计算 研究 争 。 子 分 类 方法 在 文本 模型 表示 和 特征 选择 阶段 ， 存 在 特征 提取 


山中 


前 常用 的 句子 分 类 方法 分 为 传统 的 分 类 算法 和 当下 最 复杂 、 被 提取 的 特征 易 忽 略 上 下 文 结构 信息 以 及 模型 训练 时 
为 流行 的 基于 深度 学 习 的 分 类 算法 。 传 统 的 句子 分 类 算法 中 间 较 长 等 不 足 。 
包含 朴素 贝 叶 斯 分 类 器 (naive Bayes classifier )、 支 持 向 量 机 随 着 深度 学 习 在 自然 语言 处 理 领 域 的 推广 5, 深度 学 习 
(support vector machine) 与 最 大 业 模 型 (maximun entropy 模型 在 语言 建 模 和 句子 分 类 等 方面 取得 了 很 大 的 进展 。2013 
model) 等 。 朴 素 贝 叶 斯 分 类 器 由 通过 训练 较 少 数量 的 训练 集 年 Mikolov 提出 了 Word2Vec 模型 中, 使 语言 中 的 字 词 转换 为 
文本 便 可 获取 模型 参数 ， 在 许多 复杂 的 现实 场景 中 ， 其 训练 计算 机 可 以 理解 的 稠密 向 量 ， 适 合 处 理 局 部 序列 数据 ， 有 交 
速度 较 快 且 能 保证 准确 率 ， 但 其 在 文本 预 处 理 阶段 ， 需 地 改善 了 传统 文本 表示 时 向 量 维度 极 高 、 过 于 稀疏 且 词 与 词 


要 “考虑 表情 符号 + 标点 符号 二 次 情感 提取 ”等 语法 模式 ， 之 间 无 关联 等 不 足 ，2014 年 Kim 提出 将 卷 积 神经 网 络 应 用 
使 得 特征 提取 过 程 比较 复杂 ;支持 向 量 机 算法 馈 将 句子 分 类 ”到 句子 分 类 任务 中 09， 在 数据 集 较 大 的 情况 下 ， 卷 积 神经 网 
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录用 定稿 
络 不 用 人 工 提取 特征 ， 简 化 了 传统 句子 分 类 算法 中 复杂 的 文 


本 特征 提取 步骤 。2017 年 Ma 等 人 提出 基于 多 层 注意 力 机 制 
的 卷 积 神经 网 络 ， 并 将 该 网 络 应 用 在 句子 建 模 上 00， 使 其 能 
够 更 好 地 捕获 局 部 文本 特征 ， 验 证 了 注意 力 机 制 和 卷 积 神经 
网 络 结合 的 有 效 性 。 由 此 可 以 看 出 ， 深 度 学 习 模 型 在 文本 特 


息 值 。 在 NLP 任务 中 , 注意 力 机 制 主要 作用 在 抽取 文本 的 语 
义 上 ， 假设 某 一 句子 5 中 单个 词 向 量 表示 为 p; ， 在 某 具 体 任 
务 中 对 该 句子 中 单个 词 的 关注 度 为 w， 则 该 句子 5 的 表示 如 
式 (3) 所 示 : 


Vs = 六 (3) 


征 的 提取 和 表达 方式 方面 优 于 传统 句子 分 类 方法 所 采用 的 广 
式 。 


本 文 将 当下 流行 的 基于 深度 学 习 模 型 的 卷 积 神经 网 络 与 
传统 句子 分 类 方法 朴素 贝 叶 斯 分 类 器 相 结合 ， 利 用 了 卷 积 神 


其 中 :18 表示 句子 按 序 输入 的 单词 数 ， 通 过 ,的 取 值 不 同 来 改 
变 对 句子 5 的 关注 点 。 设 任务 由 语义 向 量 W 表示 ， 则 ,表示 


为 p; 和 V, 太 胡 吉 F( PnV)， 常 用 的 函数 F(pi,V,) 计算 方式 有 


并 


经 网 络 提取 文本 特征 辨识 度 高 的 优点 ， 同 时 结合 朴素 贝 叶 斯 
分 类 器 在 复杂 现实 情景 中 训练 速度 快 、 准 确 率 高 且 参 数 易 获 
取 的 优势 ， 准 确 地 提取 到 文本 特征 ， 并 有 效 地 解决 了 句子 分 


类 问题 。 
1 ”相关 工作 


1.1 卷 积 神经 网 络 
1.1.1 卷 积 层 和 池 化 层 
卷 积 神经 网 络 (convolutional neural network,CNN) 是 图 像 
处 理 领 域 研究 热点 之 一 ， 它 可 以 直接 将 多 维 的 原始 图 像 输 入 
网 络 ， 避 免 对 图 像 的 复杂 预 处 理 过 程 并 提取 高 辨识 度 的 图 像 
特征 02。 在 NLP 领域 中 ， 同 样 可 以 在 文本 特征 提取 的 过 程 
中 利用 卷 积 神经 网 络 在 图 像 预 处 理 上 的 优势 ， 简 化 对 文本 预 
处 理 的 过 程 ， 提 取 到 高 辨识 度 的 文本 特征 ， 减 少 特征 工程 的 
工作 量 。 与 传统 神经 网 络 不 同 的 是 卷 积 神经 网 络 在 输入 层 和 


向 量 的 张 量 积 09 和 双 线 性 函数 07。 
1.2 主 成 分 分 析 法 
主 成 分 分 析 法 (Principal Component Analysis,PCA) 是 一 
种 基于 统计 思想 的 降 维 方法 09。 PCA 通过 线性 变换 将 原始 数 
据 变换 为 一 组 各 维度 线性 无 关 的 表示 ， 用 于 提取 数据 的 主要 
特征 分 量 ， 以 达到 高 维 数据 降 维 的 目的 。PCA 基本 原理 如 下 : 

设 原 始 数据 集 表 示 为 & 和 矩阵， 将 Xu 的 每 一 行进 行 零 
均值 化 , 计算 表达 式 如 式 (4) 所 示 , 其 中 与 表示 和 矩阵 X 第 i 行 


第 j 列 的 元 素 ， 尼 表示 和 矩阵 X,w 第 i 行 的 均值 ，5; 表 示 算 阵 
Xu 第 i 行 的 标准 差 ; 


= 人 


根据 式 (5) 求 出 协 方差 矩阵 C， 其 中 m 表示 样本 个 数 ， 同 
时 求 出 协 方 差 矩 阵 C 的 特征 值 罗 写 妨 宇 … 写 机 及 对 应 特征 站 


全 连接 层 之 间 添 加 了 卷 积 层 和 池 化 层 ， 有 效 地 解决 了 传统 神 
经 网 络 模型 参数 较 多 和 网 络 层 数 限制 等 问题 。 卷 积 层 03] 
(Convolution Layer) 为 特征 提取 层 , 通过 利用 不 同 卷 积 核对 上 
一 层 输 入 矩阵 进行 卷 积 操作 ， 提 取 局 部 特征 组 成 卷 积 核 特 征 
矩阵， 卷 积 操作 计算 表达 式 如 式 (1) 所 示 : 


d=f (i ce) (1) 


其 中 了 表示 非 线性 激活 函数 ，。! 表示 第 1 层 的 第 /个 特征 图 ， 


Mi, 表示 特征 图 的 某 


个 元 素 , Wi 表示 第 1 层 的 第 j 个 特征 图 


卷 积 核 和 矩阵 ， 必 表示 对 应 的 偏 置 项 。 池 化 层 04(pooling layer) 


量 d1, d2, ,dkx; 


1 有 


C= (5 7)(% -x) ,2 (5) 
根据 式 (6) 求 出 特征 贡献 率 ， 并 将 特征 向 量 按照 对 应 特征 


值 大 小 从 上 到 下 按 行 排列 成 矩阵 P?，Y=PX 即 为 降 维 后 的 
维和 矩阵 。 


= (9 
1.3 朴素 贝 叶 斯 分 类 器 

朴素 贝 叶 斯 分 类 器 是 基于 贝 叶 斯 定理 与 特征 条 件 独立 假 
设 的 分 类 方法 09。 它 主要 是 根据 先 验 概率 分 布 预测 样本 属于 
某 一 类 别 的 后 验 概率 ， 选 取 概率 最 大 的 类 别 作为 预测 类 别 。 
整个 朴素 贝 叶 斯 分 类 器 的 分 类 过 程 为 ， 对 于 给 定 的 训练 数 


对 卷 积 层 的 特征 向 量 图 进行 下 采样 操作 ， 利 用 特征 图 的 局 部 
相关 原理 ， 在 相 邻 小 区 域内 进行 聚合 统计 ， 进 一 步 提 取 更 重 


集 ， 首 先 基于 特征 条 件 独立 假设 , 学 习 输 入 /输出 的 联合 概 
分 布 ; 然后 基于 此 概率 分 布 ， 对 于 给 定 的 输入 x， 利 用 贝 


要 的 特征 信息 。 同 时 ， 不 同 长 度 的 句子 输入 可 通过 池 化 层 生 


洋 于 共和 链 


斯 定理 求 出 后 验 概率 最 大 的 输出 >。 朴素 贝 叶 斯 分 类 器 的 


成 固定 维度 的 特征 向 量 ， 并 将 池 化 层 输 出 传 给 全 连接 层 进行 
分 类 。 目 前 常用 的 下 采样 操作 有 均值 池 化 (Average Pooling)、 
最 大 值 池 化 (Max Pooling) 和 随机 池 化 (Stochastic Pooling) 等 。 
池 化 操作 的 计算 表达 式 如 式 (2) 所 示 。 


pooling pooling ,pooling 
C = flatten(c3 ,C3 ,..., 


区 


TI 


pooling .pooling pooling pooling \9 
Cm oC5l oC52 Cj )?(2) 


其 中 : er”* 表示 池 化 后 输出 的 特征 集合 , h 表示 不 同 大 小 的 卷 
积 核 ，m 表示 每 组 卷 积 核 的 数 
1.1.2 Attention 机 制 
注意 力 机 制 (attention mechanism) 最 早 应 用 在 图 像 处 理 领 
域 ， 使 神经 网 络 能 够 在 处 理 图 像 时 关注 某 些 重点 信息 05]。 
Attention 机 制 可 理解 为 从 大 量 信息 中 有 选择 地 筛选 出 重要 信 
息 并 聚焦 到 这 些 重要 信息 上 ， 同 时 忽略 不 重要 信息 ， 聚 焦 的 
过 程 体现 在 权重 系数 的 计算 上 ， 权 重 越 大 越 聚 焦 其 对 应 的 信 


学 模型 可 以 表示 如 下 : 

假设 输入 特征 向 量 XX(x, x2,… ,xn) 为 待 分 类 样本 , 输出 空 
间 为 类 标记 集合 7=[cz, ca，…cmj。 对 样本 XX 进行 分 类 ， 则 需 
要 计算 P(c 区 ),P(c, 区 ),…,P(csX) ， 那 么 X 的 预测 类 别 表达 式 
如 式 (7) 所 示 。 


PCc 人 xD)=2axPLc 区 ),P(c 人 E)， 
PCco 区 四 (7) 
cx 即 为 朴素 贝 叶 斯 分 类 器 预测 的 待 分 类 样本 类 别 。 
计算 式 (7) 中 条 件 概率 的 步骤 如 下 : 
a) 构 造 已 知 类 标记 的 训练 样本 集合 ; 
b) 统 计 训 练 集中 各 个 特征 在 每 个 类 别 中 的 条 件 概 率 ， 如 
P(x|C), P(x|C),...,P(%lC) ; 
co) 假定 各 个 特征 属性 相互 独立 ， 则 根据 贝 叶 斯 定理 可 得 
条 件 概率 表达 式 为 式 (8) 所 示 。 
Xlc, )P(c, 
P(eb) -EE).» (8) 


> 
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d) 在 式 (8) 中 ， 分 母 P(X) 对 所 有 类 别 都 是 相同 的 ， 因 此 只 
需 将 分 子 最 大 化 即 可 ， 化 简 后 的 条 件 概 率 表 达 式 为 
P(Xlc)P(c)=P(c) Px), (9) 
2 ”模型 构建 
本 文 针 对 词 向 量 的 情感 词 构造 词性 注意 力 特征 和 矩阵， 在 
卷 积 神经 网 络 的 基础 结构 上 ， 提 出 基于 attention 机 制 的 双 通 
道 卷 积 神经 网 络 , 并 将 此 网 络 与 PCA 和 朴素 贝 叶 斯 分 类 器 结 
合 ， 实 现 句 子 分 类 。 本 节 重 点 介绍 模型 的 整体 框架 、 基 于 _ 
attention 机 制 的 卷 积 神经 网 络 具体 实现 细节 和 朴素 贝 叶 斯 分 | 
类 器 对 文本 特征 的 分 类 过 程 。 图 2 卷 积 神经 网 络 模型 
2.1 模型 框架 Fig.2 Convolutional neural network model 
基于 卷 积 神经 网 络 和 贝 叶 斯 分 类 器 的 句子 分 类 模型 的 主 Attention 机 制 是 在 神经 网 络 的 各 个 部 位 对 输入 或 输出 进 
要 思想 是 通过 卷 积 神经 网 络 提取 文本 特征 ,利用 PCA 对 提取 行 加 权 ， 这 种 加 权 会 利用 词 向 量 本 身 或 外 部 的 其 他 向 量 来 强 
到 的 文本 特征 进行 降 维 ， 最 后 利用 朴素 贝 叶 斯 分 类 器 进行 句 调 特征 和 矩阵 中 相对 重要 的 信息 。 本 文采 用 词性 注意 力 机 制 结 
子 分 类 。 模 型 框架 如 图 1 所 示 。 合 词 向 量 形成 词性 注意 力 特 征 和 矩阵 ， 与 词 向量 输 入 矩阵 结合 
形成 双 通 道 ， 作 为 卷 积 神经 网 络 的 输入 层 。 仅 依赖 文本 结构 
输入 文本 | 可 文 本 预 处 理 | 卷 积 神经 网 |。 y 文本 特征 提 信息 进行 句子 分 类 会 造成 准确 率 偏 低 ， 针对 此 问题 ， 本 文通 
Mord2Yee) 络 模型 也 过 分 词 并 结合 情感 词典 中 的 情感 词 ， 抽 取 原 文句 子 中 的 情感 
| 词组 成 词性 注意 力 特 征 和 矩阵 。 对 于 长 度 为 n 的 句子 
句子 分 类 结 |。 | 相 素 贝 叶 斯 |。 | pcA 隆 维 5={W, 史 ,4 } ， 本文 将 抽取 出 句子 5 中 情感 词 4 的 词 向 
人 量 ， 即 wsR ， 其 中 1 表示 情感 词 向 量 维度 且 与 Word2Vec 维 
图 1 模型 框架 示意 图 度 相 同 。 将 情感 词 a 的 词 向 量 与 句子 s 的 词 向 量 和 矩阵 做 内 积 
Fig.1 Model frame schematic 运算 ， 可 得 到 对 角 和 矩阵 4 ， 计 算 过 程 如 式 (10)(11) 所 示 。 
图 1 可 知 ， 算 法 主要 分 为 两 个 阶段 : 训练 阶段 和 测试 A=tensorproduct (a;,s),? (10) 
阶段 ,。 在 训练 阶段 , 利用 word2vec 表示 的 训练 集 文本 集合 对 Pp(4,) ， (11) 
卷 积 神经 网 络 模型 进行 训练 ， 然 后 将 训练 好 的 网 络 模型 应 用 六 exp( 4 
到 所 有 文本 特征 的 提取 , 将 提取 到 的 高 维 文本 特征 进行 PCA 再 利用 对 角 和 矩阵 4* 与 句子 8 的 词 向 量 矩 阵 做 点 积 运 算 便 
降 维 处 理 之 后 ， 用 降 维 后 的 文本 特征 集合 训练 朴素 贝 叶 斯 分 可 得 到 词性 注意 力矩 阵 : ， 计 算 过 程 如 式 (12) 所 示 。 
类 器 。 在 测试 阶段 ， 对 测试 集 文 本 集合 进行 预 处 理 后 ， 通 过 Pr (12) 
卷 积 神经 网 络 提取 文本 特征 , 通过 PCA 降 维 , 最 后 将 降 维 的 | 
文本 特征 传 入 朴素 贝 叶 斯 分 类 器 即 可 得 到 句子 分 类 结果 。 卷 积 运算 是 卷 积 神经 网 络 获取 输入 特征 的 关键 一 步 ， 并 
2.2 ”基于 attention 机 制 的 双 通 道 卷 积 神经 网 络 以 特征 矩阵 的 形式 保存 在 网 络 结构 中 ， 特 征 矩 阵 的 每 一 个 单 
本 文 提出 的 基于 卷 积 神经 网 络 和 贝 叶 斯 分 类 器 的 句子 分 ”元 与 前 一 层 的 局 部 特征 相关 联 ， 卷 积 核 在 局 部 特征 上 做 卷 积 
类 模型 中 ， 卷 积 神经 网 络 模型 为 基于 attention 机 制 的 双 通道 操作， 最 后 通过 激活 函数 得 到 特征 矩阵 的 值 。 本 文 卷 积 操作 
卷 积 神经 网 络 ， 如 图 2 所 示 ， 此 模型 共有 5 层 。 在 文本 预 处 ”采用 广义 卷 积 运算 ， 也 称 宽 卷 积 ， 可 使 卷 积 核 扫 描 整 个 输入 
理 阶段 , 利用 word2vec 工具 将 数据 集中 的 句子 转换 为 词 向 量 ”端的 句子 向 量 ， 不 限制 输入 层 句子 长 度 * 与 卷 积 核 m 的 大 小 
和 矩阵， 并 将 词 向 量 和 矩阵 与 情感 词 向 量 结合 形成 词性 注意 力矩 ” 关系 且 卷 积 运算 的 输出 不 会 为 空间 量 ， 计 算 表 达 式 如 式 (13) 
阵 ， 两 个 矩阵 构成 卷 积 神经 网 络 的 双 通 道 ; 在 卷 积 神经 网 络 。 所 示 , 卷 积 核 输出 为 c" ER** ec 为 输入 句子 的 词 向 量 和 矩阵 ， 
第 2 层 〈 卷 积 层 )， 卷 积 窗口 在 句子 长 度 上 进行 滑动 , 一 个 窗 卷 积 核 上 ER"。 由 此 可 以 看 出 ， 广 义 卷 积 操作 将 卷 积 核 的 履 
口 生 成 一 个 值 ， 生 成 一 个 长 度 为 盖 范 围 扩大 解除 了 输入 层 句子 长 度 s 与 卷 积 核 m 的 大 小 关 
sentence_length+window_size-1 的 向 量 , 以 此 获取 输入 文本 的 。” 系 限制 ， 充 分 考虑 了 各 种 可 能 存在 的 特征 ， 在 最 大 程度 上 保 
局 部 特征 ; 在 卷 积 神经 网 络 的 第 3 层 ( 池 化 层 )， 以 滑动 窗口 证 文本 特征 提取 的 多 样 性 ， 同 时 保证 在 句子 长 度 不 一 致 时 ， 
的 形式 进行 average pooling 对 卷 积 层 的 文本 特征 和 矩阵 进行 池 有效 捕捉 完整 的 句子 信息 。 
比 并 保持 特征 相对 位 置 不 变 ， 在 卷 积 神经 网 络 的 第 4 层 〈 卷 ee i a 
积 层 ), 对 于 上 一 层 池 化 层 特征 矩阵 ,同样 以 卷 积 窗 口 的 形式 RE 
在 句子 长 度 上 滑动 ， 使 文本 特征 得 到 更 深层 次 的 提取 ; 在 卷 池 化 层 置 于 卷 积 层 的 下 ， 对 卷 积 层 局 部 数据 进行 抽 
积 神经 网 络 的 第 5 层 ( 池 化 层 ), 对 于 上 一 层 卷 积 层 特征 矩阵， 样 或 聚合 ， 以 此 来 降低 卷 积 层 特征 矩阵 的 维度 ， 同 时 使 其 不 
在 句 长 维度 上 进行 average pooling， 得 到 代表 输入 句子 特征 易 出 现 过 拟 合 。 本 文 池 化 操作 采用 Average Pooling， 池 化 层 
的 列 向 量 作 为 卷 积 神经 网 络 的 输出 层 ; 最 后 通过 PCA 降 维 处 ”特征 和 矩阵 的 计算 表达 式 如 式 (14) 所 示 。 
理 卷 积 神经 网 络 的 输出 层 ， 利 用 降 维 后 的 句子 特征 训练 分 类 


器 。 


™ 


We f (Bdown(x')+b!) 


其 中 : down () 表 示 池 化 函数 ，B 表示 乘 诉 


E 偏 置 ，b 表示 加 性 偏 


(14) 


置 ，x 表示 第 1 层 Pooling 的 第 i 个 特征 值 。 
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2.3 文本 特征 分 类 器 

文本 数据 在 通过 卷 积 神经 网 络 后 ， 经 过 PCA 降 维 处 理 ， 
最 终 得 到 句子 的 主要 特征 属性 。 本 文 利用 朴素 贝 叶 斯 分 类 器 
对 句子 特征 进行 分 类 。 在 给 定 的 句子 特征 向 量 中 ， 首 先 利用 
贝 叶 斯 条 件 概率 公式 ， 如 式 (15) 所 示 ， P(xj|c) 为 已 知 句 子 类 别 
c 的 特征 属性 x 的 概率 ; 再 利用 贝 叶 斯 公式 计算 出 已 知 句子 
属性 属于 不 同 句 子 类 别 的 后 验 概率 ， 如 式 (16) 所 示 ; 最 后 根 


据 最 大 后 验 概率 将 该 句子 归结 为 具有 最 大 后 验 概率 的 句子 类 
别 ， 如 式 (17) 所 示 。 
P(x,%,.., le) =? P(xlc),? (15) 
P(cle, wx ) = FO Pile) ? (16) 
Pn X22.. 区 
P(chi,%,...,%,)=argmaxP(c), P(x;|o), (17) 


3 ”对 比 实验 


3.1 实验 数据 

为 验证 本 文 所 提出 模型 的 有 效 性 ， 实 验 采 用 康 奈 尔 大 学 
基于 影评 数据 创建 的 数据 集 MRD (movie review data, 
https://www.cs.cornell.edu/people/pabo/movie-review-data/) 和 
斯 坦 福 大 学 情感 分 类 语料库 数据 集 SST(Stanford sentiment 
treebank, https://nlp.stanford.edu/sentiment/)， 分 别 用 于 二 分 类 
的 句子 和 五 分 类 
negative,negative,neutral,positive,very positive) 的 句子 。 其 中 
MRD 由 电影 评论 数据 组 成 ， 持 肯定 态度 评论 占 1000 篇 ， 持 
否定 态度 评论 占 1000 篇 ,标注 了 褒贬 极 性 的 句子 各 5331 句 ， 
标注 了 主客 观 标签 的 句子 各 5000 句 , 在 本 文 实验 中 , 随机 抽 
取 1400 篇 作为 训练 集 ，400 篇 作为 测试 集 ，200 篇 作为 验证 
集 ; SST 数据 集 是 MRD 数据 集 的 扩展 ， 共 有 11855 个 句子 
人 工 标注 了 句子 类 别 ，8544 句 为 训练 集 ，2210 名 为 测试 集 ， 
1101 句 为 验证 集 。 本 文 实验 所 用 数据 的 统计 如 表 1 所 示 ， 其 
中 训练 集 、 测 试 集 、 验 证 集 之 比 为 7: 2: 1 


(negative,positive) 


(very 


表 1 实验 使 用 数据 统计 
‘Table 1 Statistic of the datasets 
数据 集 训练 集 测试 集 验证 集 
MDR 1400 400 200 
SST 8544 2210 1101 
3.2 超 参 数 设置 


词 向 量 的 维度 d=300， 选 择 已 经 预 训 练 的 300 维和 谷歌 
Word2Vec 词 向 量 文件 来 映射 ， 将 未 在 Word2Vec 中 出 现 的 文 
中 单词 通过 随机 函数 映射 为 [-1,1] 的 300 维 随机 向 量 ; 实验 中 
使 用 双 通 道 对 输入 矩阵 进行 卷 积 操作 ， 卷 积 核 函 数 为 修正 线 
性 单元 (rectified linear units,ReLu)， 训 练 通过 SGD(stochastic 
gradient descent) 进 行 , 利用 Zeiler 提出 的 Adadelta 优化 器 201; 


人 


其 他 实验 参数 如 表 2 所 示 ， 首 先 通过 经 验 设 置 初始 参数 ， 其 
次 在 实验 数据 的 验证 集 上 设置 模型 迭代 次 数 为 100， 通 过 观 
察 交 叉 烂 损失 函数 的 变化 进行 调 参 ， 最 后 选择 在 实验 数据 的 
验证 集 上 性 能 最 好 的 一 组 参数 作为 训练 模型 的 参数 输出 。 
表 2 实验 参数 设置 
Table 2 Hyper parameters of experiment 
parameter parameter description value 
m window size 3 
p dropout rate 0.5 
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S L2 constrain 3 


b mini-batch size 50 


通过 卷 积 神经 网 络 提取 的 文本 特征 为 240 维 ， 特 征 维度 
过 高 , 本 文 利用 PCA 对 卷 积 神经 网 络 提取 的 文本 特征 进行 降 
维 处 理 。 为 了 研究 主 成 分 特征 值 累 计 贡 献 率 对 分 类 性 能 的 影 
啊 ， 本 文 分 析 了 不 同 累计 贡献 率 下 基于 卷 积 神经 网 络 和 贝 叶 
斯 分 类 器 的 句子 分 类 模型 的 分 类 准确 率 ， 分 类 准确 率 与 特征 
值 累计 贡献 率 的 关系 图 如 图 3 所 示 。 
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图 3 分 类 准确 率 与 特征 值 累计 贡献 率 关 系 图 


Fig.3 Classification accuracy rate and eigenvalue cumulative 


contribution rate relationship diagram 
3 可 知 ， 设 特征 值 累计 贡献 率 为 w， 当 oa 从 100% 减 
少 到 95% 过 程 中 ， 经 过 卷 积 神经 网 络 提取 到 的 文本 特征 经 
条 维 处 理 ， 文 本 特征 中 的 元 余 信 息 被 逐渐 剔除 ， 分 类 准 
确 率 逐渐 增加 ; 当 oa=95% 时 ， 文 本 特征 中 的 元 余 信 息 剔 除 较 
充分 ， 分 类 准确 率 最 高 ， 当 a 从 95% 逐 渐 减 小 时 ， 部 分 有 月 
文本 特征 被 剔除 ， 导 致 分 类 准确 率 也 随 之 下 降 。 由 此 可 得 ， 
主 成 分 的 维 数 对 分 类 准确 率 的 影响 至 关 重 要 。 在 本 文 实验 中 ， 
选取 a=95%， 能 够 将 卷 积 神经 网 络 提取 到 的 240 维特 征 通 过 
PCA 降 维 到 80 维 ， 降 维 效 果 显 著 。 
3.3 实验 结果 
为 验证 本 文 所 提出 模型 的 有 效 性 ， 实 验 设置 了 4 个 
baseline 方法 分 别 为 朴素 贝 叶 斯 分 类 器 (Naive Bayes 
,NBC)、 支 持 向 量 机 (Support Vector Machine,SVM)、 
只 神经 网 络 (Convolutional Neural Network,CNN) 和 
0 在 MRD 和 SST 数据 集 的 测试 集 上 进行 对 比 实 
验 ， 本 文 模型 与 各 模型 在 测试 集 的 实验 结果 如 表 3 所 示 。 
Table 3 Model classification correct rate comparison result 


表 3 模型 分 类 正确 率 对 比 结果 


| 


模型 MDR 正确 率 (%) SST 正确 率 (%) 

SVM 77.4 43.9 

NBC 76.3 42.8 

CNN 81.1 47.4 
CNN+SVM 82.3 48.3 
CNN+NBC 83.7 49.8 


通过 实验 结果 表明 ， 在 MDR 数据 集 上 ， 基 于 深度 学 习 
模型 的 CNN 和 CNN+SVM 的 准确 率 分 别 为 81.1% 和 82.3%， 
比 传统 句子 分 类 模型 SVM 提高 3.7% 和 4.9%, 比 传统 句子 分 
类 模型 NBC 提高 4.8% 和 6.0%; 在 SST 数据 集 上 ,基于 深度 
学 习 模 型 的 CNN 和 CNN+SVM 的 准确 率 分 别 为 47.4% 和 
48.3%， 比 传统 句子 分 类 模型 SVM 提高 3.5% 和 4.4%， 比 传 
统 句 子 分 类 模型 NBC 提高 4.6% 和 5.5%。 传统 句子 分 类 模型 
NBC 和 SVM 在 数据 预 处 理 阶 段 ， 重 点 关注 “表情 符号 + 标 
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点 符号 二 次 情感 人 工 标 注 ” 等 语法 模式 以 及 句子 的 词 频 特征 ， 
但 是 忽视 了 上 下 文 文本 结构 信息 ， 不 但 复杂 化 了 文本 情感 特 
征 表示 过 程 且 文 本 情感 分 类 准确 率 偏 低 ; 基于 深度 学 习 模 型 
的 CNN 和 CNN+SVM 利用 词 向 量 简化 了 文本 情感 特征 表示 
过 程 ， 并 且 利 用 卷 积 神经 网 络 捕获 包含 上 下 文 文本 结构 信息 
的 高 质量 文本 特征 ， 使 得 深度 学 习 模型 句子 分 类 准确 率 明 显 
高 于 传统 句子 分 类 模型 。 本 文 提出 的 模型 在 MDR 数据 集 上 
的 准确 率 为 83.7%， 比 基于 深度 学 习 模 型 的 CNN 和 
CNN+SVM 提高 2.6% 和 1.4%; 在 SST 数据 集 上 的 准确 率 为 
49.8%, 比 基于 深度 学 习 模 型 的 CNN 和 CNN+SVM 提高 2.6% 
和 1.4%。 本 文 提 出 的 卷 积 神经 网 络 结构 相对 了 传统 卷 积 神经 
网 络 结构 ， 在 输入 层 加 入 词性 注意 力 机 制 ， 使 卷 积 神经 网 络 
在 文本 情感 特征 学 习 过 程 中 更 关注 句子 的 情感 极 性 目标 词 ; 
将 卷 积 神经 网 络 提取 到 的 文本 情感 特征 经 PCA 降 维 处 理 , 易 
除 掉 文 本 情感 特征 中 的 元 余 信息 利用 朴素 贝 叶 斯 分 类 器 训 
练 速度 快 且 在 多 维特 征 空间 中 保持 准确 率 的 稳健 性 ， 对 降 维 
后 的 文本 情感 特征 进行 分 类 ， 使 得 句子 分 类 准确 率 比 基于 深 
度 学 习 模 型 的 CNN 和 CNN+SVM 的 句子 分 类 准确 率 进 一 步 
是 升 。 

图 4 更 加 形象 直观 地 显示 出 不 同 模型 在 不 同 数据 集 上 的 
句子 分 类 准确 率 。 不 难看 出 ， 当 句子 分 类 的 类 别 标签 数 增加 
时 , 传统 句子 分 类 模型 和 深度 学 习 模 型 的 准确 率 也 随 之 降低 ， 
这 表明 在 多 分 类 文本 特征 提取 上 ， 现 有 的 句子 分 类 模型 仍 不 
能 较 准 确 地 提取 高 识别 度 的 文本 特征 。 
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图 4 五 种 方法 在 不 同 实验 数据 集 上 地 实验 结果 比较 


Fig.4 Comparison of experimental results of five methods on 


different experimental data sets 
4 ”结束 语 


在 文本 情感 倾向 性 分 析 任 务 中 ， 过 去 的 研究 主要 是 改进 
传统 句子 分 类 算法 中 文本 情感 特征 表示 方式 和 词 频 统 计 方 
式 ， 这 类 方法 存在 文本 情感 特征 表示 方法 复杂 且 被 提取 的 文 
本 情感 特征 忽略 掉 上 下 文 结构 信息 的 缺陷 ， 增 加 了 特征 工程 
的 工作 量 且 句子 情感 分 类 准确 率 偏 低 。 本 文 将 基于 深度 学 习 
模型 的 卷 积 神经 网 络 和 传统 句子 分 类 算法 相 结合 ， 提 出 结合 
改进 的 卷 积 神经 网 络 和 贝 叶 斯 分 类 器 的 句子 分 类 模型 ， 该 模 
型 通过 引入 词 向 量 表示 文本 情感 特征 大 大 降低 了 文本 情感 特 
征 表示 的 工作 量 。 同 时 ， 本 文 提出 在 卷 积 神经 网 络 输入 层 加 
入 词性 注意 力 机 制 ,有 助 于 提升 被 提取 的 文本 情感 特征 质量 ， 
提高 句子 情感 分 类 准确 率 。 此 外 ， 本 文 将 传统 卷 积 神经 网 络 
的 输出 层 转换 为 贝 叶 斯 分 类 器 ， 利 用 贝 叶 斯 分 类 器 训练 速度 
快 且 在 多 维特 征 空 间 中 保持 准确 率 的 稳健 性 以 及 卷 积 神经 网 
络 在 提取 上 下 文 结构 信息 的 针对 性 ， 通 过 对 比 实验 验证 了 将 
改进 的 卷 积 神经 网 络 与 贝 叶 斯 分 类 器 相 结 合 有 效 提 高 了 句子 


李 文 帘 ， 等 : 基于 着 积 神经 网 络 和 贝 叶 斯 分 类 器 的 句子 分 类 模型 


ChinaXiv 合 作 期 刊 
第 37 卷 第 2 期 


情感 分 类 准确 率 ， 并 改善 了 基于 深度 学 习 模 型 的 卷 积 神经 网 
络 在 输出 层 黑 盒 测 试 的 解释 性 缺陷 ， 增 强 了 深度 学 习 模型 在 
分 类 过 程 中 的 可 解释 性 。 
从 实验 结果 可 以 看 出 ， 本 文 提 出 的 基于 卷 积 神经 网 络 和 
贝 叶 斯 分 类 器 的 句子 分 类 模型 对 文本 情感 倾向 性 多 分 类 效果 
不 理想 ， 所 以 本 文 接 下 来 将 针对 这 个 问题 对 卷 积 神经 网 络 结 
构 进行 改进 。 
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